应开始基于以自我为中心的流媒体视频讲话。具体地,EgoSeak从摄像头佩戴者的第一人称角度进行了演讲启动,从而准确捕获了代理商实时看到的每一刻。与第三人称或固定的摄像机视图不同,以自我为中心的观点尤其与现实世界中的代理人(例如社交机器人)尤其相关,这些机器人必须决定是否说话或保持沉默。通过利用摄像头佩戴者的直接视野(例如,面对另一个人,注意到肢体语言或凝视方向),Egospeak可以更自然地检测出微妙的线索,这些线索可以发出适当的时刻开始讲话。这对于不仅必须实时处理输入,而且在动态,多演讲者的环境中自主响应以使其显然和引人入胜的现实剂量至关重要。
![arxiv:2502.14892v1 [cs.cv] 2025年2月17日PDF文件第1页](/bimg/9/99c186a80e731218dde3ad07d758b7e4ac20eb1e.webp)
![arxiv:2502.14892v1 [cs.cv] 2025年2月17日PDF文件第2页](/bimg/b/b78a8685c947ed38ef26e56432c798359d9cb879.webp)
![arxiv:2502.14892v1 [cs.cv] 2025年2月17日PDF文件第3页](/bimg/7/7baad79a8a397d2a1b89c04b39551a8b4b3261a2.webp)
![arxiv:2502.14892v1 [cs.cv] 2025年2月17日PDF文件第4页](/bimg/e/e1b14b5517ff716f9e8153ea1fba1506a9bb492a.webp)
![arxiv:2502.14892v1 [cs.cv] 2025年2月17日PDF文件第5页](/bimg/f/fcba3d47c50e8af8f7219231b403542eae234c8f.webp)
